iT邦幫忙

2022 iThome 鐵人賽

DAY 25
0

在前幾次,我們有用表格與圖像的數據來進行分析,那麼今天要來點不一樣的,換成如標題所說的「文本」做主題啦~~
預備備~開始!/images/emoticon/emoticon69.gif

安裝文字插件

打開Orange上的工作列表,點選「Options」中最下面的「Add-on(插件)」,這次我們要來下載「Text」這個插件,勾選後按下OK鍵並重新啟動,即可開始使用它囉。

https://ithelp.ithome.com.tw/upload/images/20221010/20151063d9ck6998lM.png
https://ithelp.ithome.com.tw/upload/images/20221010/20151063sObceH9L6d.png

建檔&瀏覽

開啟後,應該會看到右方列表多出一個「Text Mining」的插件出現。
接著,我們就可以將裡面的「Corpus(文集)」組件選出,並點選這次我們要使用「grimm-tales-selected」的文件,裡面富含有44個範例供我們操作。

https://ithelp.ithome.com.tw/upload/images/20221010/20151063KLBoNQb6gp.png
https://ithelp.ithome.com.tw/upload/images/20221010/20151063W8FLX5nFvk.png

想看文本內容者,可連接「Corpus Viewer」看看裡面內容,或也可以用關鍵字來查詢想要看到的文件。

https://i.imgur.com/aeANpSX.gif

文字預處理

再來,我們將連接「Word Cloud」組件,幫我們於雲端計算出各個單字或標點符號的出現頻率有多少,若是顯現越多次者則越大。

https://ithelp.ithome.com.tw/upload/images/20221010/20151063OZDFcgxxth.png

但我們其實不需要用到無意義的詞或標點符號,所以我們就要用「Preprocess Text(文字預處理)」來代處理它們。
將一個個單字標誌化外,還將標點符號過濾掉。

https://ithelp.ithome.com.tw/upload/images/20221010/20151063xaV93OwT4o.png

大家可在連上「Word Cloud」查看,是否有成功。
而我們從以下右方出現較大的文字來看,這個文本似乎在敘述一個與國王有相關連的故事。

https://ithelp.ithome.com.tw/upload/images/20221010/20151063uz1N7Gj8xv.png

不過我們依然可以發現到,還是有許多不需要的字詞在當中佔了很大的版面,這時我們可以依照你想刪掉的單字,打在記事本中,並將其命名好另存新檔。

https://ithelp.ithome.com.tw/upload/images/20221010/20151063Bl4gEd4gfi.png

把剛剛的文件輸入至「Preprocess Text」中Filtering(過濾)的Stopwords(停止單字,也就是禁止輸入的單字出現)。
當我們再次打開「Word Cloud」發現他們都不見了,那麼我們就大功告成啦~

https://i.imgur.com/cFDucEW.gif

今天就先帶著大家到這邊囉,明日也會是文本實作,若是對這個主題喜歡的你,可以繼續看下去呦~/images/emoticon/emoticon41.gif

參考文件:
Orange


上一篇
〔Day24〕零程式的圖像分析(二)-Classification
下一篇
〔Day26〕看看Orange歸類文本之效果
系列文
一同來挖掘 0 程式的Orange!30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言